社交媒体在近时讨厌仇恨讲话令人担忧。分支到几个不同类别的网络欺凌类别,性别歧视或种族主义,这种贬义含量的组合标签可以被归类为一般毒性内容。本文提出了keras包裹轻量级伯特模型的实验,以成功识别仇恨言论,并预测相同的概率影响得分,以提取句子中的仇恨词。用于此任务的数据集是讨论语音和令人反感的内容检测(HASOC 2021)中英语的火灾2021。我们的系统获得了82.60%的验证准确性,最高F1分数为82.68%。随后,我们的预测案例在为成功识别仇恨推文和推文池中的仇恨词语时,我们的预测性案例显着良好。
translated by 谷歌翻译
Speech systems are sensitive to accent variations. This is especially challenging in the Indian context, with an abundance of languages but a dearth of linguistic studies characterising pronunciation variations. The growing number of L2 English speakers in India reinforces the need to study accents and L1-L2 interactions. We investigate the accents of Indian English (IE) speakers and report in detail our observations, both specific and common to all regions. In particular, we observe the phonemic variations and phonotactics occurring in the speakers' native languages and apply this to their English pronunciations. We demonstrate the influence of 18 Indian languages on IE by comparing the native language pronunciations with IE pronunciations obtained jointly from existing literature studies and phonetically annotated speech of 80 speakers. Consequently, we are able to validate the intuitions of Indian language influences on IE pronunciations by justifying pronunciation rules from the perspective of Indian language phonology. We obtain a comprehensive description in terms of universal and region-specific characteristics of IE, which facilitates accent conversion and adaptation of existing ASR and TTS systems to different Indian accents.
translated by 谷歌翻译
With the steady emergence of community question answering (CQA) platforms like Quora, StackExchange, and WikiHow, users now have an unprecedented access to information on various kind of queries and tasks. Moreover, the rapid proliferation and localization of these platforms spanning geographic and linguistic boundaries offer a unique opportunity to study the task requirements and preferences of users in different socio-linguistic groups. In this study, we implement an entity-embedding model trained on a large longitudinal dataset of multi-lingual and task-oriented question-answer pairs to uncover and quantify the (i) prevalence and distribution of various online tasks across linguistic communities, and (ii) emerging and receding trends in task popularity over time in these communities. Our results show that there exists substantial variance in task preference as well as popularity trends across linguistic communities on the platform. Findings from this study will help Q&A platforms better curate and personalize content for non-English users, while also offering valuable insights to businesses looking to target non-English speaking communities online.
translated by 谷歌翻译
Comparison-based learning addresses the problem of learning when, instead of explicit features or pairwise similarities, one only has access to comparisons of the form: \emph{Object $A$ is more similar to $B$ than to $C$.} Recently, it has been shown that, in Hierarchical Clustering, single and complete linkage can be directly implemented using only such comparisons while several algorithms have been proposed to emulate the behaviour of average linkage. Hence, finding hierarchies (or dendrograms) using only comparisons is a well understood problem. However, evaluating their meaningfulness when no ground-truth nor explicit similarities are available remains an open question. In this paper, we bridge this gap by proposing a new revenue function that allows one to measure the goodness of dendrograms using only comparisons. We show that this function is closely related to Dasgupta's cost for hierarchical clustering that uses pairwise similarities. On the theoretical side, we use the proposed revenue function to resolve the open problem of whether one can approximately recover a latent hierarchy using few triplet comparisons. On the practical side, we present principled algorithms for comparison-based hierarchical clustering based on the maximisation of the revenue and we empirically compare them with existing methods.
translated by 谷歌翻译
正在纳入数十种新工具和技术,以帮助开发人员,因为他们努力选择一种而不是其他人,这已成为震惊的根源。例如,开发人员至少有十个框架可用于开发Web应用程序,并在选择满足其需求的最佳框架时提出了一个难题。结果,开发人员正在不断搜索每个API,框架,工具等的所有好处和缺点。典型的方法之一是通过官方文档和讨论来检查所有功能。这种方法是耗时的,通常使难以确定哪些方面对特定开发人员最重要,以及特定方面对整个社区是否重要。在本文中,我们使用了从stackoverflow帖子中收集的基准API方面数据集(意见器),并观察了Transformer模型(Bert,Roberta,Distilbert和XLNet)在检测有关基线支持矢量的文本开发人员讨论中的软件方面时的表现机器(SVM)型号。通过广泛的实验,我们发现变压器模型改善了大多数方面的基线SVM的性能,即``performance'',``安全性'',``可用性'',``可用性'',``bug''',``bug''' '和``其他''。但是,这些模型未能理解某些方面(例如,“社区”和“陶器”),其性能取决于方面。同样,与Distilbert这样的较小体系结构相比,XLNET等较大的体系结构在解释软件方面无效。
translated by 谷歌翻译
在软件开发过程中,开发人员需要回答有关代码语义方面的查询。即使已经用神经方法进行了广泛的自然语言研究,但尚未探索使用神经网络对代码回答语义查询的问题。这主要是因为没有现有的数据集,具有提取性问答和答案对,涉及复杂概念和较长推理的代码。我们通过构建一个名为Codequeries的新的,策划的数据集并提出了一种关于代码的神经问题方法来弥合这一差距。我们基于最先进的预训练的代码模型,以预测答案和支持事实跨度。给定查询和代码,只有一些代码可能与回答查询有关。我们首先在理想的环境下进行实验,其中仅给出了模型的相关代码,并表明我们的模型做得很好。然后,我们在三个务实的考虑因素下进行实验:(1)扩展到大尺寸的代码,(2)从有限数量的示例中学习,(3)代码中对次要语法错误的鲁棒性。我们的结果表明,虽然神经模型可以抵御代码中的次要语法错误,代码的大小增加,与查询无关的代码的存在以及减少的培训示例数量限制了模型性能。我们正在释放数据和模型,以促进未来关于回答代码语义查询的问题的工作。
translated by 谷歌翻译
在法律文本中预先培训的基于变压器的预训练语言模型(PLM)的出现,法律领域中的自然语言处理受益匪浅。有经过欧洲和美国法律文本的PLM,最著名的是Legalbert。但是,随着印度法律文件的NLP申请量的迅速增加以及印度法律文本的区别特征,也有必要在印度法律文本上预先培训LMS。在这项工作中,我们在大量的印度法律文件中介绍了基于变压器的PLM。我们还将这些PLM应用于印度法律文件的几个基准法律NLP任务,即从事实,法院判决的语义细分和法院判决预测中的法律法规识别。我们的实验证明了这项工作中开发的印度特定PLM的实用性。
translated by 谷歌翻译
我们考虑了有多个具有不同奖励功能的利益相关者的情节强化学习问题。我们的目标是输出有关不同奖励功能在社会上公平的政策。先前的工作提出了不同的目标,即公平政策必须优化,包括最低福利和广义的基尼福利。我们首先对问题进行公理视图,并提出四个公理,任何这样的公平目标都必须满足。我们表明,纳什社会福利是一个独特的目标,它独特地满足了所有四个目标,而先前的目标无法满足所有四个公理。然后,我们考虑了基础模型,即马尔可夫决策过程未知的问题的学习版本。我们考虑到最大程度地降低对公平政策最大化的遗憾的问题,从而最大化三个不同的公平目标 - 最低限度的福利,广义基尼福利和纳什社会福利。基于乐观的计划,我们提出了一种通用的学习算法,并在三种不同的政策方面得出了遗憾。为了纳什社会福利的目的,我们还遗憾地得出了一个遗憾的遗憾,它以$ n $(代理的数量)成倍增长。最后,我们表明,为了最低限度福利的目的,对于较弱的遗憾概念,人们可以将遗憾提高到$ o(h)$。
translated by 谷歌翻译
物联网(IoT)是一个新兴的概念,它直接链接到连接到Internet的数十亿个物理项目或“事物”,并且都在收集和在设备和系统之间收集和交换信息。但是,IoT设备并未考虑到安全性,这可能会导致多设备系统中的安全漏洞。传统上,我们通过调查物联网开发商和专家来调查物联网问题。但是,该技术是不可扩展的,因为对所有物联网开发人员进行调查是不可行的。研究物联网问题的另一种方法是在主要在线开发论坛(如Stack Overflow(So))上查看IoT开发人员讨论。但是,发现与物联网问题相关的讨论是具有挑战性的,因为它们经常不属于与IoT相关的术语。在本文中,我们介绍了“ IoT安全数据集”,这是一个针对7147个示例的特定领域数据集,仅针对IoT安全讨论。由于没有自动化工具来标记这些样品,因此我们将其标记为标签。我们进一步采用了多个变压器模型来自动检测安全讨论。通过严格的调查,我们发现物联网安全讨论与传统的安全讨论更加不同,更复杂。当我们从通用数据集“ Opiner”转移知识时,我们证明了跨域数据集上的变压器模型的大量性能损失(多达44%)。因此,我们构建了一个特定于域的IoT安全检测器,F1得分为0.69。我们已经公开了数据集,希望开发人员能够了解有关安全性讨论的更多信息,并且供应商将加强他们对产品安全的担忧。
translated by 谷歌翻译
数字虚假信息的传播(又称“假新闻”)可以说是互联网上最重要的威胁之一,它可能造成大规模的个人和社会伤害。虚假新闻攻击的敏感性取决于互联网用户在阅读后是否认为虚假新闻文章/摘要是合法的。在本文中,我们试图通过神经认知方法来深入了解用户对以文本为中心的假新闻攻击的敏感性。我们通过脑电图调查了与假/真实新闻有关的神经基础。我们与人类用户进行实验,以彻底调查用户对假/真实新闻的认知处理和认知处理。我们分析了不同类别新闻文章的假/真实新闻检测任务相关的神经活动。我们的结果表明,在人脑处理假新闻与真实新闻的方式上可能没有统计学意义或自动可推断的差异,而当人们受到(真实/假)新闻与安息状态甚至之间的差异时,会观察到明显的差异一些不同类别的假新闻。这一神经认知发现可能有助于证明用户对假新闻攻击的敏感性,这也从行为分析中得到了证实。换句话说,假新闻文章似乎与行为和神经领域的真实新闻文章几乎没有区别。我们的作品旨在剖析假新闻攻击的基本神经现象,并通过人类生物学的极限解释了用户对这些攻击的敏感性。我们认为,对于研究人员和从业者来说,这可能是一个显着的见解楷模
translated by 谷歌翻译